## [1] 4898 13
## 'data.frame': 4898 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7 6.3 8.1 7.2 7.2 8.1 6.2 7 6.3 8.1 ...
## $ volatile.acidity : num 0.27 0.3 0.28 0.23 0.23 0.28 0.32 0.27 0.3 0.22 ...
## $ citric.acid : num 0.36 0.34 0.4 0.32 0.32 0.4 0.16 0.36 0.34 0.43 ...
## $ residual.sugar : num 20.7 1.6 6.9 8.5 8.5 6.9 7 20.7 1.6 1.5 ...
## $ chlorides : num 0.045 0.049 0.05 0.058 0.058 0.05 0.045 0.045 0.049 0.044 ...
## $ free.sulfur.dioxide : num 45 14 30 47 47 30 30 45 14 28 ...
## $ total.sulfur.dioxide: num 170 132 97 186 186 97 136 170 132 129 ...
## $ density : num 1.001 0.994 0.995 0.996 0.996 ...
## $ pH : num 3 3.3 3.26 3.19 3.19 3.26 3.18 3 3.3 3.22 ...
## $ sulphates : num 0.45 0.49 0.44 0.4 0.4 0.44 0.47 0.45 0.49 0.45 ...
## $ alcohol : num 8.8 9.5 10.1 9.9 9.9 10.1 9.6 8.8 9.5 11 ...
## $ quality : int 6 6 6 6 6 6 6 6 6 6 ...
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1 Min. : 3.800 Min. :0.0800 Min. :0.0000
## 1st Qu.:1225 1st Qu.: 6.300 1st Qu.:0.2100 1st Qu.:0.2700
## Median :2450 Median : 6.800 Median :0.2600 Median :0.3200
## Mean :2450 Mean : 6.855 Mean :0.2782 Mean :0.3342
## 3rd Qu.:3674 3rd Qu.: 7.300 3rd Qu.:0.3200 3rd Qu.:0.3900
## Max. :4898 Max. :14.200 Max. :1.1000 Max. :1.6600
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.600 Min. :0.00900 Min. : 2.00
## 1st Qu.: 1.700 1st Qu.:0.03600 1st Qu.: 23.00
## Median : 5.200 Median :0.04300 Median : 34.00
## Mean : 6.391 Mean :0.04577 Mean : 35.31
## 3rd Qu.: 9.900 3rd Qu.:0.05000 3rd Qu.: 46.00
## Max. :65.800 Max. :0.34600 Max. :289.00
## total.sulfur.dioxide density pH sulphates
## Min. : 9.0 Min. :0.9871 Min. :2.720 Min. :0.2200
## 1st Qu.:108.0 1st Qu.:0.9917 1st Qu.:3.090 1st Qu.:0.4100
## Median :134.0 Median :0.9937 Median :3.180 Median :0.4700
## Mean :138.4 Mean :0.9940 Mean :3.188 Mean :0.4898
## 3rd Qu.:167.0 3rd Qu.:0.9961 3rd Qu.:3.280 3rd Qu.:0.5500
## Max. :440.0 Max. :1.0390 Max. :3.820 Max. :1.0800
## alcohol quality
## Min. : 8.00 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.40 Median :6.000
## Mean :10.51 Mean :5.878
## 3rd Qu.:11.40 3rd Qu.:6.000
## Max. :14.20 Max. :9.000
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.800 6.300 6.800 6.855 7.300 14.200
查看fixed.acidity的直方图,从图中可以看出其基本满足正态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0800 0.2100 0.2600 0.2782 0.3200 1.1000
查看volatile.acidity的直方图,从图中可以看出其基本满足正态分布,除了右边的数据尾巴比较长。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.800 6.300 6.800 6.855 7.300 14.200
查看fixed.acidity的直方图,从图中可以看出其基本满足正态分布。
## Scale for 'x' is already present. Adding another scale for 'x', which
## will replace the existing scale.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.700 5.200 6.391 9.900 65.800
查看residual sugar的直方图,在为调整坐标轴前数据不满足正态分布。经过坐标轴的调整得到一个呈双峰分布的数据。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
查看cholrides的直方图,从图中可以看出其基本满足正态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 34.00 35.31 46.00 289.00
查看free.sulfur.dioxide的直方图,从图中可以看出其基本满足正态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 108.0 134.0 138.4 167.0 440.0
查看free.sulfur.dioxide的直方图,从图中可以看出其基本满足正态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9871 0.9917 0.9937 0.9940 0.9961 1.0390
查看density的直方图,从图中可以看出其基本满足正态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.720 3.090 3.180 3.188 3.280 3.820
查看pH的直方图,从图中可以看出其基本满足正态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.4100 0.4700 0.4898 0.5500 1.0800
查看=sulphates的直方图,从图中可以看出其基本满足正态分布。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.51 11.40 14.20
查看alcohol的直方图,图形不符合正态分布,在调整坐标轴后也没有满足正态分布。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.878 6.000 9.000
查看quality的直方图,从图中可以看出其基本满足正态分布。
从这里可以看出这个数据集有4898行,13列。也就是数据集中有13个特征,4898个数据。
从head我们可以看出,x是序号,其他的12列代表的是属性。其中2-12个都是将葡萄酒的性质,最后的一个是对于葡萄酒质量的评分。在这些特征中没有factor类型的数据。 ### 你的数据集内感兴趣的主要特性有哪些? 哪些变量会影响白葡萄酒的quality。 ### 你认为数据集内哪些其他特征可以帮助你探索兴趣特点? 每一个变量都可能影响白葡萄酒的quality。同一个物质的含量不同很可能会对葡萄酒的口味产生影响。 ### 根据数据集内已有变量,你是否创建了任何新变量? 我注意到变量中有free.sulfur.dioxide和total.sulfur.dioxide,因此,应当存在一个other.sulfur.dioxide。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.0 78.0 100.0 103.1 125.0 331.0
接下来查看other.sulfur.dioxide的直方图,从图中可以看出其基本满足正态分布。
从上面的图中和summary中可以看出,变量基本上都满足正态分布。residual.sugar使用log对x轴进行转换处理后,呈一个双峰的状态。alchohol未能处理成一个正态分布的状态。
## X fixed.acidity volatile.acidity citric.acid
## X 1.00 -0.26 0.00 -0.15
## fixed.acidity -0.26 1.00 -0.02 0.29
## volatile.acidity 0.00 -0.02 1.00 -0.15
## citric.acid -0.15 0.29 -0.15 1.00
## residual.sugar 0.01 0.09 0.06 0.09
## chlorides -0.05 0.02 0.07 0.11
## free.sulfur.dioxide -0.01 -0.05 -0.10 0.09
## total.sulfur.dioxide -0.16 0.09 0.09 0.12
## density -0.19 0.27 0.03 0.15
## pH -0.12 -0.43 -0.03 -0.16
## sulphates 0.01 -0.02 -0.04 0.06
## alcohol 0.21 -0.12 0.07 -0.08
## quality 0.04 -0.11 -0.19 -0.01
## other.sulfur.dioxide -0.19 0.14 0.16 0.10
## residual.sugar chlorides free.sulfur.dioxide
## X 0.01 -0.05 -0.01
## fixed.acidity 0.09 0.02 -0.05
## volatile.acidity 0.06 0.07 -0.10
## citric.acid 0.09 0.11 0.09
## residual.sugar 1.00 0.09 0.30
## chlorides 0.09 1.00 0.10
## free.sulfur.dioxide 0.30 0.10 1.00
## total.sulfur.dioxide 0.40 0.20 0.62
## density 0.84 0.26 0.29
## pH -0.19 -0.09 0.00
## sulphates -0.03 0.02 0.06
## alcohol -0.45 -0.36 -0.25
## quality -0.10 -0.21 0.01
## other.sulfur.dioxide 0.34 0.19 0.26
## total.sulfur.dioxide density pH sulphates alcohol
## X -0.16 -0.19 -0.12 0.01 0.21
## fixed.acidity 0.09 0.27 -0.43 -0.02 -0.12
## volatile.acidity 0.09 0.03 -0.03 -0.04 0.07
## citric.acid 0.12 0.15 -0.16 0.06 -0.08
## residual.sugar 0.40 0.84 -0.19 -0.03 -0.45
## chlorides 0.20 0.26 -0.09 0.02 -0.36
## free.sulfur.dioxide 0.62 0.29 0.00 0.06 -0.25
## total.sulfur.dioxide 1.00 0.53 0.00 0.13 -0.45
## density 0.53 1.00 -0.09 0.07 -0.78
## pH 0.00 -0.09 1.00 0.16 0.12
## sulphates 0.13 0.07 0.16 1.00 -0.02
## alcohol -0.45 -0.78 0.12 -0.02 1.00
## quality -0.17 -0.31 0.10 0.05 0.44
## other.sulfur.dioxide 0.92 0.50 0.00 0.14 -0.43
## quality other.sulfur.dioxide
## X 0.04 -0.19
## fixed.acidity -0.11 0.14
## volatile.acidity -0.19 0.16
## citric.acid -0.01 0.10
## residual.sugar -0.10 0.34
## chlorides -0.21 0.19
## free.sulfur.dioxide 0.01 0.26
## total.sulfur.dioxide -0.17 0.92
## density -0.31 0.50
## pH 0.10 0.00
## sulphates 0.05 0.14
## alcohol 0.44 -0.43
## quality 1.00 -0.22
## other.sulfur.dioxide -0.22 1.00
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
接下来查看每个变量与quality的关系。 首先是fixed.acidity和quality。fixed.acidity的值主要是3-11,因此可以调整x轴。
## Warning: Removed 4 rows containing non-finite values (stat_boxplot).
从fixed.acidity和quality的箱线图可以看出,不同的quality的酒之间的分布没有很大的差别。
## Warning: Removed 18 rows containing non-finite values (stat_boxplot).
从fixed.acidity和quality的箱线图可以看出,不同的quality的酒之间的分布是有差别的。从各个中位数可以看出,他们的中位数不是单调变化的。
## Warning: Removed 152 rows containing non-finite values (stat_boxplot).
从fixed.acidity和quality的箱线图也看不出什么分布规律。
## Warning: Removed 9 rows containing non-finite values (stat_boxplot).
从residul.sugar和quality的箱线图看不出什么分布规律。
## Warning: Removed 164 rows containing non-finite values (stat_boxplot).
cholrides和quality的箱线图的中的中位线也是先上升后下降。
## Warning: Removed 17 rows containing non-finite values (stat_boxplot).
quality和free.sulfur.dioxide可以看出,当quality大于4的时候free.sulfur.dioxide比较高,quality小与4的时候比较低。
## Warning: Removed 10 rows containing non-finite values (stat_boxplot).
看不出什么规律。
## Warning: Removed 12 rows containing non-finite values (stat_boxplot).
看不出什么规律。
## Warning: Removed 3 rows containing non-finite values (stat_boxplot).
总体来说density比较低的有更好的quality。
看不出什么规律。
看不出什么规律。
从图中可以看出当小于4时,酒精都比较低。当qualty变大了以后,酒精含量也上升。
total.sulfur.dioxide和free.sulfur.dioxide的相关系数是0.62. density和residual sugar的相关系数是0.84. total.sulfur.dioxide和density的相关系数是0.52 total.sulfur.dioxide和other.sulfur.dioxide的相关系数是0.92 alcohol和density的相关系数是-0.78。 alcohol, density和residual.sugar可能存在一定的关系。 other.sulfur.dioxdide是从total.sulfur.dioxide和free.sulfur.dioxide中生成的,因此它们三个肯定存在关系。从相关系数来看,density和residual sugar还有total.sulfur.dioxide是呈正相关,而density和alcohol是呈负相关。 ### 你是否观察到主要特性与其他特性之间的有趣关系? quality与citric.acid还有free.sulfur.dioxide相关性不大,与fixed.acidity, volatile.acidity,chlorides,total.sulfur.dioxdie,density呈负相关,与free.sulfur.dioxide,pH还有alcohol呈正相关。 ### 你发现最强的关系是什么? density和residual sugar之间的相关系数达到了0.84.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
由于,从前面的观察看到alcohol, density和residual.sugar可能存在一定的关系。这里我们就探讨一下这几个变量的关系。
ggplot(aes(x=residual.sugar, y=density, color=alcohol.bucket), data=pf) +
geom_point() +
scale_x_continuous(breaks=seq(0,20,2),limits=c(0,20)) +
scale_y_continuous(limits =c(0.987,1))
## Warning: Removed 81 rows containing missing values (geom_point).
ggplot(aes(x=alcohol,y=density,color=residual.sugar.bucket), data=pf) +
geom_point() +
scale_x_continuous(limits=c(8.5,11)) +
scale_y_continuous(limits=c(0.995,1.001))
## Warning: Removed 3122 rows containing missing values (geom_point).
ggplot(aes(x=alcohol, residual.sugar, color=density.bucket), data=pf) +
geom_point() +
scale_y_continuous(limits = c(0,20))
## Warning: Removed 18 rows containing missing values (geom_point).
ggplot(aes(x=density, y=total.sulfur.dioxide, color=quality), data=pf) +
geom_point() +
geom_smooth(method="lm") +
scale_x_continuous(limits=c(0.988,1)) +
scale_y_continuous(limits=c(0,250))
## Warning: Removed 108 rows containing non-finite values (stat_smooth).
## Warning: Removed 108 rows containing missing values (geom_point).
ggplot(aes(x=residual.sugar, y=density, color=quality), data=pf) +
geom_point() +
geom_smooth(method="lm") +
scale_x_continuous(breaks=seq(0,20,5),limits=c(0,20)) +
scale_y_continuous(limits=c(0.985,1))
## Warning: Removed 81 rows containing non-finite values (stat_smooth).
## Warning: Removed 81 rows containing missing values (geom_point).
## Warning: Removed 9 rows containing missing values (geom_smooth).
# 多变量分析 ### 探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性? * 从alcohol vs. density vs. residual.sugar的图中可以看出每个图中的点中有比较明显的分层。 * density vs. total.sulfur.dioxide vs. quality之间的有预测直线有比较多的交叉,不适合用来预测哪种quality * density vs. residual.sugar vs. quality之间的预测直线除了quality为9的时候,其他时候时候的quality有明显的分层,而且这种变化是有规律的。
从alcohol vs. density vs. residual.sugar中可以看出,糖分比较高的时候或者酒的密度会比较大,酒精含量多的时候密度会比较小。 使用density和residual.sugar可以在一定程度上预测一瓶酒的quality,但是quality为9的酒不好预测。 ### 选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。
从quality的直方图中可以看出quality符合正态分布。quality为6的数量最多,quality得分很高或者很低的数量很少。
通常我们认为酒的质量和酒精的含量是有关系的。这幅图解释了在这个数据集中的关系。从图中可以看出,当qulity在5以下时酒精浓度和quality没什么关系,但是当quality大于5以后,酒精含量越高,quality也越高。对于quality为9的情况,酒精浓度相当的高。
## Warning: Removed 81 rows containing non-finite values (stat_smooth).
## Warning: Removed 81 rows containing missing values (geom_point).
## Warning: Removed 9 rows containing missing values (geom_smooth).
从图中可以看出,除了quality=3和quality=9的情况,其他的quality都可以从图中区分出来。
在刚开始分析单个数据的分布的时候,感觉比较迷茫,看不出数据之间的关系,对于如何分析无从下手。当开始分析两个数据的时候,先画出了相关系数的矩阵和散点图矩阵。从中可以挖掘中各个属性之间的相关性,然后取出几个相关的,仔细查看他们的关系。最好从分析多个变量中,可以进一步得出分析哪些变量与感兴趣的变量有关系。